EvoClass
AI012
สำรวจอย่างละเอียดเกี่ยวกับโมเดลภาษาขนาดใหญ่
กรณีศึกษาโมเดลภาษาขนาดใหญ่ที่นิยมและกลยุทธ์การใช้งาน
เป้าหมายการเรียนรู้
- วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรมแบบแค่เข้ารหัส (BERT) แบบแค่ถอดรหัส (GPT) และแบบเข้ารหัส-ถอดรหัส (T5)
- อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
- เปรียบเทียบประสิทธิภาพ กฎการขยายตัว และนวัตกรรมด้านสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่ที่นิยม เช่น GPT, Llama, Qwen และ DeepSeek